AI资讯新闻榜单内容搜索- LLM

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

9292 点击 2024-06-17 19:35

万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

近年来，大语言模型（Large Language Models, LLMs）受到学术界和工业界的广泛关注，得益于其在各种语言生成任务上的出色表现，大语言模型推动了各种人工智能应用（例如ChatGPT、Copilot等）的发展。然而，大语言模型的落地应用受到其较大的推理开销的限制，对部署资源、用户体验、经济成本都带来了巨大挑战。

来自主题: AI技术研报

10766 点击 2024-06-14 10:35

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

大型语言模型（LLM）的一个主要特点是「大」，也因此其训练和部署成本都相当高，如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。

来自主题: AI技术研报

9999 点击 2024-06-11 10:06

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」的新论文，探讨了LLM的不确定性量化问题，通过「迭代提示」成功将LLM的认知不确定性和偶然不确定性解耦。研究还将新推导出的幻觉检测算法应用于Gemini，结果表明，与基线方法相比，该方法能有效检测幻觉。

来自主题: AI技术研报

9913 点击 2024-06-08 19:59

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

在大模型浪潮中，训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战，尤其是在数百亿或数千亿参数的规模上。为了应对这些挑战，稀疏模型，如专家混合模型（MoE），已经变得越来越重要。这些模型通过将计算分配给各种专门的子模型或「专家」，提供了一种经济上更可行的替代方案，有可能以极低的资源需求达到甚至超过密集型模型的性能。

来自主题: AI技术研报

9850 点击 2024-06-04 17:59

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

9744 点击 2024-06-04 17:45

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

9376 点击 2024-05-31 19:10

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

11066 点击 2024-05-26 13:45

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型（LLM）掀起了新一轮 AI 应用浪潮，但是 LLM 推理的高昂成本一直困扰着业务团队。

来自主题: AI技术研报

10784 点击 2024-05-24 20:58

14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

来自主题: AI技术研报

9151 点击 2024-05-10 23:32